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摘要 : 


[ 目的 】 在 有 效 提取 多 维特 征 基础 上 ，, 考察 评论 内 容 特征 对 评论 质量 检测 的 影响 。[ 方法 】 基 于 评论 文本 


的 信息 特征 度量 和 情感 倾向 的 混合 性 , 量化 并 抽取 评论 内 容 特征 , 采用 GBDT 模型 评估 特征 集合 分 类 效果 , 结 
合 贪 焚 式 特征 选择 算法 识别 有 效 内 容 特征 ,分 析 其 对 评论 质量 检测 的 影响 。[ 结果 ] 将 评论 内 容 特征 应 用 于 评论 
质量 检测 任务 中 能 取得 较 好 的 效果 , 明显 提升 了 实验 准确 率 和 召回 率 。[ 局 限 】 实验 对 象 主要 是 搜索 型 产品 的 评 


论 数 据 , 未 对 其 他 享受 型 产品 (如 电影 、 音 乐 ) 等 进行 验证 和 比较 。[ 结论 ] 评论 内 容 的 信息 增益 、 


产品 特征 词 的 


信息 增益 、 评 论 客观 情感 倾向 度 、 内 容 差异 性 对 评论 质量 检测 有 明显 作用 。 
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贪 梦 式 特征 选择 


1 引 Ë 


随 着 互联 网 技术 的 日 益 成 熟 ， 消 费 者 网 络 点 评 积 
极 性 逐渐 增强 , 网 络 上 产生 了 数量 庞大 的 评论 数据 。 
用 户 利用 这 些 评论 信息 辅助 购买 决策 的 同时 ,也 饱 受 
评论 质量 参差 不 齐 、 信 息 过 载 等 问题 的 困扰 , 仅 依靠 
人 工 方法 难以 从 海量 的 评论 中 识别 出 真正 对 用 户 有 价 
值 的 信息 , 迫切 需要 自动 化 方法 辅助 人 们 进行 甄别 ， 因 
而 对 在 线 评论 的 质量 进行 检测 具有 重要 的 研究 价值 。 

一 些 购 物 网 站 通过 设置 “有 用 性 投票 "对 评论 质量 
进行 排序 , 基于 此 , 学 者 普遍 认为 消费 者 对 评论 的 感 
知 有 用 性 度量 了 评论 的 质量 或 效用 , 有 用 性 程度 越 高 ， 


比例 阔 值 或 人 工 标注 方法 生成 有 用 评论 训练 模型 ， 利 
用 最 优 模 型 自动 识别 高 质量 评论 ,效果 相对 较 好 。 由 
于 评论 质量 受 多 种 特征 因素 影响 ,如何 选 择 有 效 特征 
是 评论 质量 检测 的 关键 。 目 前 , 国内 研究 对 有 用 评论 
的 特征 选择 集中 在 元 数据 特征 语言 特征 的 等 方面 
对 文本 内 容 特 征 的 挖掘 还 不 够 深入 , 较 少 涉及 特征 的 
贡献 度 和 选择 机 制 分 析 。 

本 文 以 梯度 提升 决策 树 模型 (Gradient Boosting 
Decision Tree, GBDT) 作 为 分 类 模型 , 在 提取 多 维特 征 
基础 上 , 重点 考察 评论 内 容 的 信息 特征 和 语义 情感 特 
征 在 分 类 模型 上 的 表现 ,进一步 利用 贪 焚 式 特征 选择 
算法 识别 有 效 的 内 容 特 征集 合 , 深入 揭示 多 维 评论 特 


代表 评论 质量 或 效用 越 高 ,因而 评论 质量 、 评 论 效 用 
与 评论 有 用 性 一 般 视 为 同等 概念 。 现 有 文献 对 评论 
质量 的 检测 方法 主要 分 为 两 种 : 计量 回归 方法 和 监督 
学 习 方 法 。 前 者 一 般 以 元 数据 特征 (如 评论 评分 、 评 论 
者 身份 ) 或 语言 特征 (如 评论 字数 、 词 语 数 等 ) 作 为 自 变 


FE 的 影响 效果 。 
2 文献 综述 


2.1 影响 评论 质量 的 特征 分 析 
现 有 研究 中 影响 评论 质量 的 特征 大 致 可 以 分 为 


D 


量 , 评论 有 用 性 投票 比例 作为 因 变 量 , 考察 哪些 元 数 
据 特 征 或 语言 特征 对 评论 质量 影响 显著 。 而 后 者 则 将 
评论 质量 的 检测 视 为 分 类 问题 , 采取 设置 有 用 性 投票 


三 大 类 : 元 数据 特征 、 语 言 特征 和 评论 内 容 特征 。 杨 
铭 等 外 指出 元 数据 特征 与 文本 内 容 信 息 和 文本 语言 特 
征 无 关 , 评论 评分 、 评 论 有 用 投票 数 、 评 论 总 投票 数 


通讯 作者 : ml, ORCID: 0000-0002-6595-8370, E-mail: nancymeng5544@163.com。 
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户 在 线 评 论 的 情感 分 析 ”( 项 目 编 号 : 70971099) 和 国家 自然 科学 基 


等 是 重要 的 元 数据 特征 。Kim 等 中研 究 表明 评论 发 表 
距 今 的 时 间 是 显著 影响 评论 质量 的 元 数据 特征 ,Ghose 
等 由 认为 ,评论 者 相关 信息 是 有 效 的 元 数据 特征 , 例 
如 评论 者 以 往 发 表 的 评论 数 及 有 用 率 、 评 论 者 身份 等 。 
语言 特征 则 主要 是 指 从 词 频 统计 的 角度 发 现 评论 的 特 
征 。 如 Ghose SE, Li 4&P). Liu 等 "指出 主要 的 语言 
特征 应 包括 评论 字数 、 句 子 数 、 不 同 词性 (名 词 、 动 词 、 
形容 词 等 ) 的 词语 数 等 。Chen 等 中 强调 在 评论 所 包含 
的 名 词 中 , 产品 属性 名 词 的 频次 是 重要 的 语言 特征 ， 
高 质量 的 评论 中 应 包含 一 定数 量 的 产品 属性 名 词 。 从 
这 些 研究 中 , 可 以 发 现 元 数据 特征 和 语言 特征 属于 外 
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量 的 检测 十 分 关键 。 现 有 研究 大 多 关注 语言 特征 和 元 
数据 特征 等 外 在 特征 , 虽 有 少数 学 者 专门 验证 了 文本 
内 容 情感 特征 的 作用 , 但 鲜 有 全 面 考察 外 在 特征 和 内 
在 特征 对 评论 质量 的 影响 。 评 论 内 容 特 征 对 评论 质量 
的 影响 是 否 明显 ?特征 选择 顺序 是 否 影响 分 类 效果 ? 
这 些 问 题 仍 然 需 要 得 到 解答 。 针 对 现 有 研究 的 不 足 ， 
本 文 的 目标 是 采用 GBDT 监督 学 习 方 法 , 深入 、 全 面 
挖掘 影响 评论 质量 的 有 效 特 征集 合 , 考察 评论 内 容 特 
征 对 评论 质量 的 影响 。 因 而 , 人 研究 过 程 从 以 下 三 个 方 
面 展 开 : 

(1) 提取 评论 内 容 的 内 在 特征 , 包括 信息 特征 和 


在 层面 的 评论 特征 ,与 此 相对 应 的 , 内 在 层面 的 特征 
基于 评论 文本 内 容 , 消费 者 阅读 评论 后 , 能 了 解 其 他 
用 户 对 产品 的 正面 或 负面 的 观点 评价 ， 从 而 对 产品 认 
知 获取 到 一 定 程度 的 信息 量 ， 以 消除 对 产品 认 知 的 不 
确定 性 。 王 伟 等 已 指出 正 是 这 些 从 评论 内 容 中 获取 的 
言 息 真正 影响 了 消费 者 的 购买 意愿 ， 聂 卉 等 由 重点 验 
证 了 评论 情感 特征 对 评估 评论 效用 具有 较 好 效果 ,可 
见 , 评论 内 在 特征 是 消费 者 判断 评论 质量 的 重要 依据 。 
2.0 ”评论 质量 检测 方法 

已 有 人 研究 主要 采取 计量 方法 和 监督 学 习 方 法 检 
测评 论 质量 。 计 量 方法 研究 一 般 以 有 用 性 投票 比例 作 
为 评论 质量 的 代理 变量 ， 比 例 越 高 , 评论 质量 越 高 。 如 
Ghose 等 站 采用 多 元 线性 回归 方法 , 对 DVD 产品 的 评 
论 数据 进行 验证 ,得 出 评论 者 特征 和 评论 语言 特征 对 


评论 质量 有 显著 正 向 影响 。 同 样 采 用 计量 方法 的 还 有 
文献 [5-6], 分 别 得 出 评论 字数 、 评 论 评分 、 评 论 长 度 
等 特征 能 影响 评论 质量 。 另 一 方面 , 监督 方法 将 评论 
质量 检测 视 为 一 个 分 类 问题 , 通过 人 工 标注 或 设置 有 
用 性 投票 比例 阔 值 标注 有 用 评论 训练 集 ， 利 用 提取 的 
特征 集 来 测试 和 评估 分 类 器 效果 ， 从 而 发 现 有 效 的 评 
论 特 征 ， 以 自动 识别 高 质量 评论 。 如 聂 卉 等 加 利用 有 用 
性 投票 比例 作为 评论 质量 代理 指标 ， 设 置 合理 阔 值 生 
成 有 用 性 评论 训练 集 , 采用 随机 森林 方法 检测 评论 质 
量 。 另 外 , 以 人 工 标注 获得 训练 集 , Liu 等 ("采用 支持 
向 量 回 归 、 决 策 树 等 机 器 学 习 方 法 进行 比较 ， 以 得 到 
性 能 最 优 的 分 类 模型 。 Chen 等 由 构造 了 多 层 支 持 向 量 
机 对 评论 质量 进行 分 类 。 
2.3 ”研究 述评 与 问题 定义 

由 以 上 文献 综述 分 析 得 出 ,特征 选取 对 于 评论 质 


语义 情感 特征 。 

(2) 采取 GBDT 分 类 方法 和 贪 禁 式 特征 选择 算法 ， 
识别 有 效 特征 集合 和 最 佳 分 类 模型 。 
(3) 分 类 模型 的 性 能 评测 和 比较 。 


3 研究 框架 


本 文 将 评论 质量 检测 任务 建 模 为 二 元 分 类 问题 ， 
在 对 文本 多 维特 征 有 效 提取 的 基础 上 , 采用 梯度 提升 
决策 树 模 型 (GBDT) 和 贪 焚 式 特征 选择 算法 进行 最 佳 
模型 识别 。 对 评论 质量 进行 分 类 学 习 。GBDT 模型 组 
合 “ 基 学 习 器 (Base Learner)", 经 多 次 迭代 , 每 次 迭代 
过 程 根据 损失 函数 在 梯度 下 降 方向 上 建立 决策 树 模 
型 ,使 得 相 加 的 损失 消 数 (Loss Function) 最 小 , 3835 
代 改 进 能 获得 比 基 学习 器 更 为 良好 的 分 类 性 能 ,在 分 
类 、 回 归 等 研究 问题 上 表现 优异 路。 本 文 研究 的 主 
要 任务 包括 实验 评论 选取 、 分 句 、 特 征 提取 、 特 征 选 
择 、 模 型 训练 与 模型 识别 、 实 验 结果 分 析 等 过 程 ， 研 
究 框 架 如 图 1 所 示 。 
3.1 文本 内 容 特 征 提取 

本 文 的 重点 是 考察 评论 内 容 特征 的 效果 , 因此 重 
点 阐述 评论 内 容 相关 特征 的 提取 方法 , 着重 从 文本 内 
容 蕴 含 的 信息 特征 和 语义 特征 两 方面 , 提取 8 个 特征 ， 
如 表 1 所 示 。 

(1) 信息 特征 提取 

QD 评论 内 容 的 信息 量 

从 信息 论 的 角度 来 看 , 评论 T 蕴含 的 信息 量 越 大 ,这 条 
评论 对 用 户 越 有 用 。 评 论 中 不 同 的 词语 为 评论 有 用 性 贡献 不 
同 的 信息 量 ， 因 而 本 文 利用 词语 的 信息 增益 量化 评论 r 的 


x 
言 息 量 。 
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图 1 
表 1 各 种 内 容 特征 概述 
内 容 特 征集 合 特征 定义 特征 描述 
I1: IGain(r) 评论 r 的 信息 量 
信息 I2: IGain«(r) 评论 r 包 含 的 特征 词 信息 量 


特征 (D) — I: Entropy(r) 评论 r WE LR 

I4: Perplexity(r) “评论 r 的 困惑 值 
S1: ObjDegree(r) 评论 r 的 客观 情感 倾向 
语义 情感 ”S2: DevObj(r) 评论 r 的 客观 情感 倾向 
特征 (S)  Ss3:PosDegree(r) 评论 r 的 正 向 情感 倾向 
S4: DevPos(r) 评论 r 的 正 向 情感 倾向 
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对 于 给 定 的 在 线 评论 集合 R， 以 C=(c1, c?) 表 示 评论 空间 
有 用 性 类 别 , 其 中 ci 表示 有 用 类 别 ，c? CUR EI, IA 
断 二 分 类 系统 所 需 的 信息 闹 总 量 HOA: 


2 
H(C) - -» P. (ci) log P. (c;) () 
i=l 


其 中 , P(ci) 为 系统 中 类 别 ci 的 出 现 概 率 。 

评论 T 由 多 个 不 同 的 词组 成 ,考虑 评论 中 的 某 个 词语 t， 
其 可 能 的 取 值 为 两 种 ， 出 现 或 不 出 现 , 分 别 用 w 和 页 dm, 
则 当 t 出 现 的 条 件 下 ( 即 t 取 值 为 w, f 6,5 4i Ed 
HOC | w) 为 : 


2 
H(C|w)=-> P. (c; | w)log P. (c; |w) (2) 
i=l 
其 中 ，P.(c; | w) 为 t 出 现 的 评论 中 ,类 别 ci 出 现 的 概率 。 
同 理 ， 可 以 得 到 t 不 出 现 ( 即 t 取 值 为 页 ) 的 条 件 下 ， 系统 
&,4- 8548 EA H(C|w) « A JE t 两 种 不 同 取 值 条 件 下 为 系统 
带 来 的 信息 增 量 ， 即 t 的 信息 增益 G(t) 为 : 
G(W=H(O -PWHCIW) -PWHCIW) — 


其 中 ，P.(w) 表示 t 的 出 现 概率 ，P.( 丈 ) 表示 的 不 出 现 
概率 。 

由 于 G( 考 虑 的 是 词 t 4E 985 4- JE 3I (e, 和 c?) 整 体 上 的 贡 
献 度 之 和 , 考虑 到 有 用 评论 能 帮助 用 户 消 除 对 产品 不 确定 
性 的 认 知 , 而 无 用 评论 不 仅 无 法 给 用 户 购 买 决策 提供 支持 ， 
可 能 还 会 影响 用 户 对 产品 的 正确 判断 ， 因 而 词 t 在 有 用 类 别 
不 同 评论 中 , 其 信息 增益 方向 是 不 同 的 。 为 了 更 好 地 体现 t 
在 两 个 类 别 中 信息 增益 的 差异 ， 借鉴 文 献 [15] 对 词 t 的 信息 
增益 进行 改进 ,在 t 出 现 的 所 有 评论 中 ， 比 较 有 用 类 别 和 无 
用 类 别 的 出 现 概率 , Pp P(c |w) 和 P.(c,|w)， 如 果 前 者 大 
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于 后 者 ， 则 词语 t 代表 正 向 信息 增益 , 反之 则 代表 负 向 信息 
增益 。 改 进 后 的 词 t 的 信息 增益 IG(t) 表示 为 : 
G(t) ”车 P.(ci |w)>Pr(c, |w) 


—G(t) otherwise e 


IG(t) -| 

由 此 , 评论 1 的 信息 量 IGain(r) 表 示 为 + 中 所 有 词语 的 信 

息 增 益 之 和 ， 公 式 如 下 所 示 : 
IGain(r) = > IG(D (5) 
ter 

文献 [12] 表 明 评论 中 产品 特征 词 相 比 其 他 词语 ， 其 信息 
增益 对 于 用 户 判断 评论 质量 作用 更 大 ,为 此 , 考察 每 个 产品 
特征 词 f 提 供 的 信息 增益 IG(fj)， 并 提取 每 条 评论 中 所 有 特征 
词 的 贡献 的 信息 量 IGainf ， 其 计算 公式 如 下 : 

IGain; (r) = > IG(f) (6) 
fer 

@) 评 论 内 容 的 差异 性 

文献 [16] 指 出 ， 内 容 越 相似 的 评论 越 有 可 能 是 虚假 评 
论 ， 这 反映 出 评论 内 容 与 其 他 评论 内 容 的 差异 性 影响 用 户 
对 评论 质量 的 感知 。 贯 里 尼克 在 文本 信息 粒 基 础 上 ,定义 了 
困惑 值 的 概念 ， 两 者 同时 使 用 ， 可 以 度量 一 条 评论 与 其 他 评 
论 在 内 容 上 的 差异 性 路。 对 于 评论 集合 R wR r 和 其 
他 评论 内 容 差 异 越 大 ， 则 评论 (42.8 84e P] REAK o 
假设 评论 r 由 一 连 串 特定 顺序 排列 的 词 Wi,W,,…ws 组 成 ， 
p(Wi) 为 r 中 词语 wi BIA, NAE 5d 
Entropy(D 和 困惑 值 Perplexity(D 的 表示 如 下 : 


Entropy(r) =- J, p(wi)logp(wi) (7) 
Wi Lcid 
Perplexity(r) = 2P?tropyG) (8) 


本 文 以 每 个 产品 型 号 对 应 的 评论 子 集 分 别 作为 
训练 语 料 , 构建 nigram 统 计 语言 模型 ， 再 使 用 训练 模 
RIT EBOSE WT HE N APEN BU Ft n AA ER RR TER 

Q) 语义 情感 特征 提取 

评论 中 经 常 呈现 出 混合 观点 形式 ,， 既 包 含 正面 或 
负面 情感 ， 也 有 主观 或 客观 情感 ,通常 , 评论 观点 的 正 
负面 情感 倾向 由 评论 中 的 观点 词 极 性 来 决定 ， 而 评论 
的 主客 观 情感 倾向 则 由 评论 者 对 商品 属性 点 评 与 商家 
描述 的 一 致 性 程度 度量 上 ， 即 评论 文本 与 商家 描述 内 
容 越 相似 , 说 明 评论 的 用 语 比较 正式 , 评论 文本 趋向 


于 客观 。 例 如 评论 句 : 

“这 款 产品 性 能 挺 优 越 的 ， 外 观 上 也 非常 小 巧 漂亮 。 性 价 
比 一 般 吧 ,因为 价格 有 点 高 。 总 体 来 说 , 我 还 是 非常 喜欢 的 !” 

从 情感 极 性 上 来 看 , 这 条 评论 表达 了 正 向 和 负 向 
两 种 情感 倾向 , 但 整体 而 言情 感 表 达 是 正 向 的 , 而 从 
内 容 的 主客 观 性 上 分 析 , 前 两 句 评论 相 比 后 一 句 评论 ， 
则 更 接近 于 客观 的 评论 。 为 全 面 度量 评论 中 情感 的 混 
合 性 对 评论 质量 的 影响 , 以 下 定义 客观 情感 倾向 度 
ObjDegree 及 其 偏差 DevObj 、 正 向 情感 倾向 度 
PosDegree 及 其 偏差 DevPos 等 4 个 特征 项 。 

四 客观 情感 倾向 度 及 其 偏差 

以 评论 子 句 为 单位 ,考察 评论 内 容 与 产品 描述 文本 的 
余弦 相似 性 , 判断 其 客观 性 。 利 用 文本 词语 的 tfidf 权 值 对 
FEFA s 和 商品 描述 d 分 别 进行 向 量 表 示 , 计算 两 者 的 余 
统 相 似 度 sim(s,d), 设 定 阅 值 入 判断 评论 子 句 的 客观 性 。 以 
S 表示 T 中 客观 的 评论 子 句 ,total(D) 为 评论 Tr 中 的 评论 子 句 总 
数 ， 则 评论 T 客 观 情感 倾向 度 计 算 公 式 为 : 


count(s* ) 
total(r) 


对 于 同一 产品 p 的 所 有 评论 平均 客观 情感 倾向 度 , 均匀 
地 反映 整体 主客 观 观 点 名 比例 的 稳定 值 ， 将 评论 T 的 客观 情 
感 倾向 度 与 整体 均值 进行 比较 ， 偏 差 越 大 ,说 明 评论 r P 
有 可 能 呈现 一 致 性 观点 (都 是 客观 或 都 是 主观 观点 )， 偏 差 越 
小 , 说明 评 论 r 越 有 可 能 呈现 主客 观 混合 观点 ( 既 有 客观 观 
点 也 有 主观 观点 )。 

因此 ,基于 产品 p 所 有 评论 的 平均 客观 情感 倾向 度 ， 定 
义 评 论 T 的 客观 情感 倾向 偏差 ， 表示 评论 主客 观 情感 混合 程 
度 ， 其 计算 公式 为 : 

DevObj(r) =| ObjDegree(r) 一 Avg( X ObjDegree(r))| (10) 


eR 


ObjDegree(r) = (9) 


@) 正 向 情感 倾向 度 及 其 偏差 

评论 一 般 由 多 个 观点 子 句 构成 ,以 正 向 观点 子 和 句 的 占 
比 代表 评论 的 正 向 情感 倾向 度 ， 占 比 越 大 ,说 明 整 条 评论 偏 
向 于 正 向 情感 ， 反 之 则 偏向 于 负 向 情感 ， 因 而 ， 正 向 情感 倾 
向 度 表 达 了 评论 的 情感 极 性 特征 。 以 评论 T 中 的 子 名 为 单位 ， 
判断 其 情感 极 性 。 本 文采 取 机 器 学 习 方 法 对 评论 子 句 进行 情 
感 极 性 分 类 。 从 实验 语 料 中 选取 5 星 评分 和 1 星 评分 评论 各 
1 000 条 构建 情感 分 类 器 。 根 据 卡 方 统计 值 选择 前 1 500 个 
单词 (unigram) 和 双 词 (bigram) 作 为 文本 情感 极 性 分 类 特征 项 上 
在 Python 环境 下 选择 分 类 效果 最 好 的 BernoulliNB 作为 分 类 
器 对 评论 子 句 正 负 情感 极 性 进行 判别 。 以 表示 了 中正 向 的 
FEFA, total(D 为 评论 T 中 的 子 名 总数 , 则 评论 的 正 向 情 
感 倾向 度 计算 如 下 : 
count(r*) 


PosDegree(r) = 
gree(r) total(r) 


(11) 
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同 理 ， 正 向 情感 倾向 偏差 度量 了 评论 T 的 正 负 情感 混合 
程度 特征 ， 其 计算 如 下 所 示 : 


DevPos(r) = | PosDegree(r) - Avg( X PosDegree(r)| (12) 


reR 

3.2 ”特征 选择 

(1) 基础 特征 模板 

由 于 评论 质量 与 评论 元 数据 特征 (Meta) 和 语言 特 
征 (Lan) 密 切 相 关 , 为 此 将 元 数据 特征 和 语言 特征 作为 
基本 特征 集合 , 构建 分 类 模型 的 特征 模板 。 根 据 文献 
[3,5,7-8,10-11] 中 研究 结论 , 提取 6 个 有 效 元 数据 特征 
(M1-M6) 和 3 个 语言 特征 (L1-L3),， WK 2 所 示 : 
表 2 基础 特征 集合 


特征 描述 

- 评论 zx 的 有 用 投票 率 , 评论 z 获 得 的 有 用 投票 
数 除 以 总 投票 数 

M2 评论 r 获得 的 有 用 投票 数 

M3 评论 r 对 应 的 用 户 评分 


M4 评论 r 发 表 至 今 的 时 间 
M5 评论 z 对 应 的 评论 者 排名 
M6 ”评论 + 对 应 的 评论 者 以 往 评 论 的 平均 有 用 率 


LI 评论 + 包 全 的 字数 
工 2 评论 + 包含 的 词语 数 
L3 。 评论 1 的 产品 特征 词 数 


(2) 贪 焚 式 特征 选择 算法 
为 了 能 够 从 提取 的 文本 内 容 相 关 特 征集 中 分 别 选 
择 有 利于 评论 质量 检测 的 特征 集 ， 以 元 数据 特征 和 语 
言 学 特征 为 基本 特征 集合 ， 以 提取 的 内 容 特 征 为 候选 
寺 征 集合 ,采用 贪 禁 式 特征 选择 算法 和 GBDT 分 类 
模型 进行 特征 选择 。 主 要 思路 为 : 根据 每 个 候选 内 容 
特征 在 开发 集 DevData 上 对 分 类 任务 的 贡献 度 大 小 ， 
每 次 选取 贡献 度 最 大 的 特征 加 入 基本 特征 集合 ， 当 从 
剩余 候选 特征 集中 添加 任意 特征 时 ， 导 致 开 发 集 的 分 
类 评价 指标 下 降 或 剩余 候选 特征 集 为 空 时 ,算法 终 
止 。 算 法 的 执行 流程 如 下 : 
输入 : 读 入 所 有 特征 集合 Fur={M1I~M6,L1~L3,II~I4,S1~S4} 
输出 : 有 效 特征 集合 Foweo={set of selected features], M, 
{selected model} 
1: 初始 化 基础 特征 集合 、 候 选 内 容 特征 集合 , Feri M1~M6， 
L1~L3},Fcan=Fan—Fsolect 
2: 3l 练 模 型 " 得 到 d 步 分 类 性 能 Mesuee=GBDT Train(Fsueeo， 
Eswec=Evaluate(Msslec DevData) 
3: 对 文本 内 容 特征 进行 选择 
4: loop 


XIANDAI TUSHU QINGBAO JISHU IAE) 


ChinaXiv 合 作 期 刊 


O FRR 


5 for each feature fiin Fean do 
6: F= FsacaU fi 

T Mi- GBDT Train(F;) 

8 E= Evaluate(M;, DevData) 
9 end for 

10: Emax=Max(E;) 

11: If Emax> Ea then 

12: Fselect= FselectU fmax 

13: Msereci™M max 

14: Eselect= Emax 

15: Foan= Foan-fmax 

16: endif 

17: 证 Fu== Ø or Emax<= Ej then 
18: return Fac Mselect 
19: end if 


20: end loop 

其 中 , 算法 第 5-9 行为 每 次 从 候选 特征 集合 Fas 
中 选择 一 个 特征 各 加 入 有 效 特征 集合 Fse 执行 分 类 
模型 并 记录 其 对 应 分 类 指标 Ei; 算法 第 10-16 行为 比 
较 当 前 每 个 特征 fi 对 应 的 分 类 指标 ,确定 最 大 贡献 度 
的 各 和 其 加 入 有 效 特征 集合 的 顺序 。 


4 实验 设计 


4.1 实验 数据 及 标注 标准 
利用 疏 虫 程序 抓 取 中 文 亚马逊 网 站 的 数码 相机 
的 相关 评论 信息 和 产品 信息 , 采集 评论 文本 、 评 论 元 
数据 信息 和 产品 描述 文本 ,数据 采集 截止 时 间 为 2013 
年 9 月 2 日 , 评论 发 表 时 间 跨 度 为 2009 年 1 月 7 日 到 
2013 年 9 月 1 H, 共 采 集 了 15 327 条 评论 。 选择 其 中 
评论 总 数 大 于 50 条 的 产品 作为 实验 对 象 ， 去 除 重复 、 
告 评论 等 预 处 理 操 作 后 , 得 到 10568 条 有 效 评论 数 
据 , 涵盖 10 个 相机 品牌 、67 个 型 号 的 产品 。 具体 统计 
FU e 3 所 示 : 
表 3 评论 数据 特征 统计 


评论 相关 属性 最 小 值 ”最 大 值 。” 平均 值 
评论 字数 1 3 296 62.93 
评论 词语 数 1 1 961 38.13 
评论 产品 特征 词 数 0 192 BR 
评论 有 用 性 投票 数 0 1322 2.01 
评论 有 用 率 0 : 920 
评论 评分 1 5 Tag 
评论 发 表 时 间 (log) 0.47 29s Zal 
评论 者 排名 (log) 1.77 BET 320 
评论 r 对 应 的 评论 者 以 往 0 i use 
评论 的 平均 有 用 率 


现代 图 书 情报 技术 


鉴于 有 用 性 投票 率 有 较 大 偏差 .借鉴 文献 [20], 
对 评论 质量 进行 人 工 标注 。 邀 请 两 名 数码 产品 资深 用 
户 对 实验 数据 进行 独立 标注 。 标 注 者 逐条 阅读 所 有 评 
论 , 并 回答 问题 “该 评论 内 容 对 您 了 解 产 品 或 购买 产 
品 有 用 吗 ?”。 除 了 评论 文本 外 , 还 提供 标注 者 评论 对 
应 的 产品 简要 描述 。 经 过 对 标注 结果 的 Cohen-Kappa 
检验 , 两 名 标注 者 的 标注 结果 Kappa 值 达 83.45%， 可 
见 标 注 者 对 于 实验 数据 的 质量 评价 标准 达到 了 较 高 的 
一 致 性 。 以 标注 者 1 的 标注 结果 训练 和 测试 模型 。 最 
终 获 得 5 307 条 高 质量 评论 和 5 261 条 低 质量 评论 。 
42 ”模型 及 评价 指标 

采用 GBDT 模 型 对 评论 质量 进行 分 类 , 经 过 测试 , 
分 类 中 建立 25 棵 树 模型 能 达到 最 优 分 类 效果 。 将 实验 
数据 按 4:1 分 成 训练 集 和 测试 集 进行 特征 选择 , 采用 
平均 准确 率 、 平 均 召 回 率 和 平均 Fl 值 作为 评价 标准 ， 
分 别 记 为 P、R、F1。 
4.3 ”特征 抽取 结果 

实验 机 器 是 Win7 32bit 操作 系统 , 内存 4GB。 使 
用 Python 语言 编写 程序 , 在 Python2.7.3 下 完成 所 有 程 
序 编写 及 测试 。 以 下 为 部 分 文本 内 容 特征 抽取 结果 。 

(1) 词语 信息 增益 

利用 实验 数据 的 评论 质量 标注 结果 , 对 评论 进行 
分 词 、 去 停 用 词 操作 后 ,计算 评论 集合 词语 ( 仅 计算 词 
性 为 n、v、a、d、vn) 的 信息 增益 。 有效 词 语 共计 11 729 
个 ,部 分 词语 的 信息 增益 计算 结果 如 表 4 所 示 : 


RA 部 分 词语 信息 增益 计算 结果 


WordID 词语 正 向 信息 增益 WordID 词语 负 向 信息 增益 
1 镜头 0.026199 11 签单 —0.000201 
2 电池 0.019720 12 时 机 —0.000204 
3 1H 0.019718 13 拍 下 —0.000207 
4 机 身 0.018958 14 正品 —0.000212 
5 快门 0.017846 15 涨 价 —0.000270 
6 照片 0.017434 16 骗 —0.000274 
7 清晰 0.016422 17 看 上 —0.000286 
8 功能 0.016267 18 不 贵 —0.000349 
9 屏幕 0.015868 19 9S —0.000381 
10 ”对 焦 0.015324 20 5A -0.000467 


(2) 部 分 特征 抽取 结 

对 实验 语 料 进 行 分 词 、 分 句 等 操作 后 , TE 3.1 节 
所 述 特 征 提取 方法 提取 特征 ， 部 分 评论 内 容 特 征 提取 
结果 如 表 5 所 示 。 


表 5 部 分 内 容 特征 提取 结果 


ReviewID IGain IGain+ Entropy Perplexity ObjDegree DevObj PosDegree DevPos 
1 0.024422 0.002269 8.849878 461.401121 0.400000 0.020892 0.200000 0.355263 
2 0.031540 0.008544 8.301512 315.503415 0.222222 0.156886 0.000000 0.555263 
3 0.093255 0.036050 8.495248 360.848181 0.466667 0.087559 0.066667 0.488597 
4 0.026955 0.008158 8.554623 376.008819 0.800000 0.420892 0.200000 0.355263 
5 0.199504 0.022060 8.115530 277.343496 0.350000 0.029108 0.400000 0.155263 
6 0.043566 0.002513 8.069165 268.572038 0.375000 0.004108 0.625000 0.069737 
7 0.054861 0.000000 9.680146 820.378626 0.500000 0.120892 0.000000 0.555263 
8 0.014244 0.000000 8.913717 482.276570 0.200000 0.179108 0.000000 0.555263 
9 0.137508 0.076782 7.904827 239.656882 0.666667 0.287559 0.750000 0.194737 
10 0.017129 0.000000 8.130206 280.179206 0.250000 0.129108 0.500000 0.055263 
5 分 类 实验 结果 RT 贪 整 式 特征 选择 结果 
特征 P(95) R(96) F1(96) 
(1) 文本 内 容 特征 的 效果 Meta+Lan 72.92 74.20 73.56 
以 元 数据 特征 和 语言 特征 作为 基础 特征 ,然后 依 4n 7745 74.56 75.83 
次 加 入 文本 内 容 特征 。 表 6 显示 了 分 别 加 入 单个 文本 +12 76.56 75.88 76.22 
内 容 特 征 的 效果 。 +S1 76.60 76.06 76.33 
表 6 加 入 单个 文本 内 容 特征 的 效果 » rd d bas 
+14 76.67 76.06 76.36 


E P(%) R(%) F1(%) 
Meta+Lan 72.92 74.20 73.56 
+1 77.15 74.56 75.83 
+2 76.56 75.88 76.22 
+3 76.60 76.06 76.33 
+4 76.60 76.06 76.33 
+S1 76.60 76.06 76.33 
+S2 76.51 75.97 76.24 
+S3 76.53 76.06 76.30 
+S4 76.53 76.06 76.30 


从 表 6 可 以 看 出 , 加 入 单个 内 容 特征 后 , 评论 质 
量 的 分 类 准确 率 和 召回 率 都 有 一 定 程 度 的 提高 ,Fl 可 
以 提高 近 3 个 百分点 , 验证 了 内 容 特征 对 评论 质量 检 
测 的 有 效 性 。 但 依次 加 入 内 容 特征 后 , 分 类 指标 值 呈 
现 先 上 升 后 下 降 的 趋势 ,说 明 有 些 特征 项 的 效果 不 明 
显 , 因此 有 必要 进行 特征 选择 ,去 除 没 有 帮助 的 特征 
Jj. 根据 3.2 节 的 特征 选择 算法 得 出 , 依次 按照 {I1,12， 
S1,13,14} 特 征 组 合 顺序 ， 可 以 达到 最 好 的 分 类 效果 。 
表 7 显示 了 利用 贪 焚 式 特征 选择 算法 所 选择 的 特征 组 
合 的 分 类 效果 , 因此 , 将 特征 组 合 {I1,12,S1,13,14} 及 其 
顺序 作为 最 终 有 效 的 评论 内 容 特 征集 合 。 


T 


T 


从 表 7 可 以 看 出 , 过 滤 了 宛 余 后 的 特征 项 中 , D 
有 客观 情感 倾向 度 (S1) 为 有 效 情感 特征 , 说明 正式 、 客 
观 的 评论 内 容 能 影响 评论 质量 。 而 所 有 信息 特征 对 评 
论 质量 都 具有 明显 作用 ,其 中 作用 最 大 的 是 整体 评论 
的 信息 量 (11) 以 及 产品 特征 词 的 蕴含 的 信息 量 (12)， 
其 次 分 别 是 度量 评论 内 容 差 异性 的 信息 粹 (3) 和 困惑 
值 (14)。 整 条 评论 提供 的 信息 量 (1) 能 帮助 用 户 了 解 产 
品 信 息 ,产品 特征 词 给 用 户 判 别 评论 质量 提供 了 更 有 
价值 的 信息 ， 从 而 利于 判别 评论 质量 。 评 论 内 容 的 差 
异性 对 于 评估 评论 质量 起 着 非常 关键 的 作用 ,这 也 间 
接 验 证 了 文献 [16] 的 结论 ， 即 越 相似 的 评论 , 越 有 可 
能 是 垃圾 评论 的 论断 。 

(2) 基于 有 效 特 征集 的 模型 比较 

为 考察 GBDT 模型 的 分 类 表现 , 基于 有 效 特征 集 ， 
与 Ghose 等 中 采用 的 随机 森林 模型 (Random Forest, RF) 
进行 比较 。 此 外 , 与 基本 决策 树 模 型 (Decision Tree, 
DT) 进 行 比较 ,考察 梯度 提升 优化 效果 ,实验 比较 结 
果 如 图 2 所 示 。 可 以 看 出 , GBDT 模型 方法 与 RF 模型 、 
DT 模型 相 比 ， 准 确 性 和 召回 率 都 有 显著 提高 。 整 体 来 
ci, ALE DT 模型 ,Fl1 可 以 提高 约 9 个 百分点 , 说 明 
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GBDT 优化 效果 较 好 ; 同时 , 相 比 RF 模型 , Fl 也 提高 
了 约 2.3 个 百分点 , 说 明 模 型 性 能 表现 良好 。 
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图 2 实验 对 比 结果 
6 结 语 


本 文 主要 介绍 了 文本 信息 特征 和 语义 情感 特征 在 
评论 质量 检测 中 的 应 用 效果 , 研究 结果 表明 ,经 过 贪 
焚 式 特征 选择 算法 按 一 定 顺序 选择 特征 项 后 ，GBDT 
能 在 经 过 选择 特征 集 上 取得 最 佳 分 类 性 能 ， 其 分 类 交 
果 优 于 决策 树 模型 和 随机 森林 模型 ， 验 证 了 特征 提取 
和 特征 选择 的 有 效 性 ， 从 而 更 有 效 地 帮助 商家 自动 识 
别 高 质量 评论 。 

未 来 将 继续 搜索 其 他 有 效 的 内 容 特 征 ， 进 一 步 提 
高 和 完善 文本 特征 在 评论 质量 监测 中 的 应 用 。 
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Evaluating Online Reviews Based on Text Content Features 


Meng Yuan Wang Hongwei 
(School of Economics and Management, Tongji University, Shanghai 210000, China) 


Abstract: [Objective] This paper aims to effectively extract multi-dimensional characteristics of online reviews and 
then examine the impact of text content to the review quality evaluation. [Methods] First, we quantified and extracted 
content features based on the textual and sentimental message from the reviews. Then, adopted the GBDT model to 
evaluate the influence of feature sets to classification results, along with greedy feature selection procedure to identify 
the most effective content features. Finally, we examined the influences of these features. [Results] The proposed method 
could improve the performance of review quality evaluation tasks, especially the recall and precision of the new system. 
[Limitations] Our research focused on review data from search services, and did not investigate products like movies and 
music. [Conclusions] The information gained from reviews and product feature words, degree of sentimental 
objectiveness, and differences among review contents all posed important effects to review quality evaluation. 


Keywords: Review quality Information feature Sentiment orientation Review content Greedy feature selection 
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